Создание индексных файлов для программ пакета BLAST
В рабочей директории были созданы индексные файлы по геномам Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida.
Для решения данной задачи была выбрана программа из пакета BLAST - TBLASTN.
Таблица1
Поиск гомологов YAHK_ECOLI | Геном S. typhimurium |
Число находок с Е-value<0,001 | 9 |
Характеристика лучшей находки: | |
E-value находки | 1,00E-43 |
AC соответствующей записи EMBL | AE008910 |
координаты выравнивания(-ий) в записи EMBL | 15874 - 14879 (complete genome) |
Координаты CDS в записи EMBL (если они есть) | complement(14864..15883) |
AC UniProt в записи EMBL (если есть) | Q8ZK20 |
Координаты CDS в записи EMBL (если они есть) | complement(14864..15883) |
Секция генома | 214 |
Ген | yjgB |
Процент идентичности с наилучше находкой оказался 32%. Процент достаточный для гомологии, тем более что данный белок, кодируемый CDS, по функции (putative alcohol dehydrogenase) похож на белок YAHK_ECOLI (Zinc-type alcohol dehydrogenase)
Таблица1
Результат поиска по трем геномам | |
Число находок с Е-value<0,001 | 15 |
E-value AE008910 | 3,00E-43 |
Общее число находок | 24 |
В результате поиска по трем геномам сразу вес находки AE008910 (yjgB) уменьшился (так как увеличилось число последовательностей белков, среди которых мы ищем гомологов). Наибольшей же находкой стала AE012096 (Xanthomonas campestris) с Е-value e-117 (Identities = 214/347 (61%)), можно считать большим гомологом, чем AE008910 : процент идентичности больше, а также данный ген кодирует белок уже с настоящей, а не мнимой (AE008910) функцией алкогольдегидрогеназы.
Был произведен поиск гомологов гена, кодирующего белок YAHK_ECOLI, в трёх геномах (Salmonella typhimurium, Xanthomonas campestris,Pasteurella multocida) программой BLASTN. В результате был найден предположительный гомолог AE012427 с E-value: 0.16 (самое лучшее выравнивание). .
>AE012427 AE008922 |AE012427| Xanthomonas campestris pv. campestris str. ATCC 33913, section 335 of 460 of the complete genome. Length = 11105 Score = 36.2 bits (18), Expect = 0.16 Identities = 18/18 (100%) Strand = Plus / Plus Query: 574 aagctggcccacgcgatg 591 |||||||||||||||||| Sbjct: 9323 aagctggcccacgcgatg 9340
Вес всех находок очень маленький. Размер выравненных последовательностей также мал. Следовательно о гомологии говорить здесь очень трудно, то есть программа BLASTN в данном случае не подходит для поиска гомологов
Выравнивания
>AE008910 AE006468 |AE008910| Salmonella typhimurium LT2, section 214 of 220 of the complete genome. Length = 20648 Score = 171 bits (433), Expect = 1e-43 Identities = 110/343 (32%), Positives = 164/343 (47%), Gaps = 3/343 (0%) Frame = -2 Query: 3 IKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPGH 62 IK+ A A LE + E P DV++ + YCG+CHSDL + +EW + YP V GH Sbjct: 15874 IKSYAAKEAGGELELYEYDAGELQPEDVEVRVDYCGICHSDLSMIDNEWGFSQYPLVAGH 15695 Query: 63 EIVGRVVAVGD--QVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDHMTGTYNSPTPD 120 E++GRV A+G Q + G VG+G SC HC+ C G + C PT Sbjct: 15694 EVIGRVAALGSAAQDKGLKVGQRVGIGWTARSCGHCDACISGNQINCQEGA----VPTI- 15530 Query: 121 EPGHTLGGYSQQIVVHERYVLRIRHPQE-QLAAVAPLLCAGITTYSPLRHWQAXXXXXXX 179 GG+++++ ++V+ + P+ +A+ PLLC GIT + PL Sbjct: 15529 ---LNRGGFAEKLRAGWQWVIPL--PENIDMASAGPLLCGGITVFKPLLMHHITATSRVG 15365 Query: 180 XXXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFD 239 L HAMG V AF+++ +K + A+GA+ VVNSR+ + + A FD Sbjct: 15364 VIGIGGLGHIAIKLLHAMGCEVTAFSSNPSKEQEVLAMGANNVVNSRDPEALKALAGQFD 15185 Query: 240 FILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPE 299 I+NTV + + L G VGA P P F LI R+I+GS G E Sbjct: 15184 LIINTVNVDLDWQPYFEALTYGGNFHTVGAVLKPLPVP-AFTLIAGDRSISGSATGTPYE 15008 Query: 300 TQEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVI 342 ++++ F + E+ QINEA + + G +YR V+ Sbjct: 15007 LRKLMKFAGRSKVAPTTELFAMSQINEAIQHVRDGKARYRVVL 14879
К упражнению 2, таблице 2
>AE012096 AE008922 |AE012096| Xanthomonas campestris pv. campestris str. ATCC 33913, section 4 of 460 of the complete genome. Length = 12092 Score = 417 bits (1073), Expect = e-117 Identities = 214/347 (61%), Positives = 243/347 (70%), Gaps = 1/347 (0%) Frame = +2 Query: 2 KIKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPG 61 K A A +A QPL P RR PGP+DV+I+IAYCGVCHSDLH R+EW TVYP VPG Sbjct: 3302 KAHAYAAQTADQPLAPFVFERRAPGPDDVQIDIAYCGVCHSDLHTARNEWHNTVYPSVPG 3481 Query: 62 HEIVGRVVAVGDQVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDH-MTGTYNSPTPD 120 HEIVGRV AVG V + GDL GVGC+VDSC+ C C++G E YC+ TGTYN P Sbjct: 3482 HEIVGRVTAVGSAVTNFKVGDLAGVGCMVDSCRSCASCQEGEEQYCEQGFTGTYNGPMFG 3661 Query: 121 EPGHTLGGYSQQIVVHERYVLRIRHPQEQLAAVAPLLCAGITTYSPLRHWQAXXXXXXXX 180 +T GGYS IVV ++YVL I H + LAAVAPLLCAGITTYSPL HW+ Sbjct: 3662 GGENTYGGYSDHIVVDQKYVLHISH-SDNLAAVAPLLCAGITTYSPLAHWKVGPGQKVGV 3838 Query: 181 XXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFDF 240 +A AMGA VV FTTSE+KR A LGA EVV S++ +MAA + DF Sbjct: 3839 VGLGGLGHMAVKIAKAMGATVVLFTTSESKRADALRLGASEVVISKDEAQMAAQYNTLDF 4018 Query: 241 ILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPET 300 ILNTVAAPHNLD F LKRDG M LVG P H SP VFNL+MKRR +AGS+IGGI +T Sbjct: 4019 ILNTVAAPHNLDPFLNALKRDGAMVLVGVPEHSHPSPAVFNLVMKRRTLAGSLIGGIRQT 4198 Query: 301 QEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVIDNRTL 347 QEMLDFCA+H IV+DIE IRADQINEAYERML+GDVKYRFVID TL Sbjct: 4199 QEMLDFCAKHNIVSDIETIRADQINEAYERMLKGDVKYRFVIDMDTL 4339
>AE008910 AE006468 |AE008910| Salmonella typhimurium LT2, section 214 of 220 of the complete genome. Length = 20648 Score = 171 bits (433), Expect = 3e-43 Identities = 110/343 (32%), Positives = 164/343 (47%), Gaps = 3/343 (0%) Frame = -2 Query: 3 IKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPGH 62 IK+ A A LE + E P DV++ + YCG+CHSDL + +EW + YP V GH Sbjct: 15874 IKSYAAKEAGGELELYEYDAGELQPEDVEVRVDYCGICHSDLSMIDNEWGFSQYPLVAGH 15695 Query: 63 EIVGRVVAVGD--QVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDHMTGTYNSPTPD 120 E++GRV A+G Q + G VG+G SC HC+ C G + C PT Sbjct: 15694 EVIGRVAALGSAAQDKGLKVGQRVGIGWTARSCGHCDACISGNQINCQEGA----VPTI- 15530 Query: 121 EPGHTLGGYSQQIVVHERYVLRIRHPQE-QLAAVAPLLCAGITTYSPLRHWQAXXXXXXX 179 GG+++++ ++V+ + P+ +A+ PLLC GIT + PL Sbjct: 15529 ---LNRGGFAEKLRAGWQWVIPL--PENIDMASAGPLLCGGITVFKPLLMHHITATSRVG 15365 Query: 180 XXXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFD 239 L HAMG V AF+++ +K + A+GA+ VVNSR+ + + A FD Sbjct: 15364 VIGIGGLGHIAIKLLHAMGCEVTAFSSNPSKEQEVLAMGANNVVNSRDPEALKALAGQFD 15185 Query: 240 FILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPE 299 I+NTV + + L G VGA P P F LI R+I+GS G E Sbjct: 15184 LIINTVNVDLDWQPYFEALTYGGNFHTVGAVLKPLPVP-AFTLIAGDRSISGSATGTPYE 15008 Query: 300 TQEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVI 342 ++++ F + E+ QINEA + + G +YR V+ Sbjct: 15007 LRKLMKFAGRSKVAPTTELFAMSQINEAIQHVRDGKARYRVVL 14879